自助法

"总有人抱怨训练集训练出来的模型不是最完整的模型,于是自助法出现了"

Main Idea

  • 取出来,copy,放回去
    • 这样下一次就还是可以取到

这样,我们要想获得基于m个数据的模型,我们就可以直接选m个作为训练数据,把没选到的作为验证集即可。

而不出现的数据占总数据的比率约为(设m为要选取的训练数据个数)

也就是说,我们就算用m个样本来训练,我们要有大概1/3的数据来作验证集,这样的测试结果也叫包外估计

  • 优点
    • 在数据集较小,难以有效划分ST时相当有用
    • 能从原始数据集中产生多个不同的训练集,对于集成学习有很大的好处
  • 缺点:
    • 改变了初始数据集的分布,会引入估计偏差